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结合 评分 比例 因子 及 项 目 属性 的 协同 过 滤 算 法 ， 
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摘 要 : 针对 传统 的 协同 过 滤 算 法 存在 用 户 评分 天 阵 稀 芍 及 未 考虑 项 目 属 性 之 间 关 系 的 问题 ， 提 出 了 结合 评分 比例 
因子 及 项 目 属性 的 协同 过 滤 算法 。 首 先 利 用 评分 天 阵 得 出 项 目 之 间 的 共同 与 非 共同 评分 用 户 数 量 比 矩 阵 ， 以 此 增加 
项 目 共 同 评分 用 户 的 影响 度 ， 减 少 用 户 一 项 目 评 分 矩阵 的 稀 牙 性 对 项 目 相似 度 计 算 带 来 的 误差 ; 然后 对 项 目 属性 量 
化 得 出 其 对 项 目 相似 度 的 影响 权重 ， 提 高 项 目 相似 度 计算 的 准确 性 ， 根 据 以 上 两 点 提出 了 一 种 结合 评分 比例 因子 及 
项 目 属性 权重 作为 项 目 相似 度 权 重 的 算法 。 实 验 结 果 表 明 该 算法 在 召回 率 和 准确 率 上 相 比 现 有 的 方法 分 别提 高 了 
5.1% 和 4.7%， 算 法 适用 于 电 商 类 网 站 的 个 性 化 推荐 。 
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Collaborative filtering algorithm combined with score scale factor and item attribute 


Li Shuzhi’, Li Zhijun’, Deng Xiaohongb 
(a. College of Information Engineering, b. College of Applied Science, Jiangxi University of Science & Technology, 
Ganzhou Jiangxi 341000, China) 


Abstract: There exists Several issues in traditional collaborative filtering algorithms: a) It has the sparsity of user rating 
matrix; b) It ignores the relationship between item attributes. Considering all these problems, this paper proposed a novel 
collaborative filtering algorithm combining score ratio factor and item attribute. The algorithm used the scoring matrix to 
obtain the ratio matrix of common and non-common score users between items. Therefore, it increased the influence degree 
of the users of the item common score, and reduced the error caused by the sparsity of the user-item scoring matrix on the 
item similarity calculation. quantifying the item attribute could obtain the weight of the item similarity, and it also improved 
the accuracy of the item similarity calculation. According to the above two points, an algorithm combining scoring scale 
factor and item attribute weight as item similarity weight is proposed. Experimental results show that, it improved the recall 
rate and accuracy of the algorithm by 5.1% and 4.7% respectively compared with the existing methods. The algorithm is 
suitable for personalized recommendation of e-commerce websites. 
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0 引言 提出 将 单个 用 户 评价 过 的 项 目 构建 成 项 目 网 络 图 ， 根 据 项 

| 汪 网 络 图 中 用 户 已 评分 的 项 目 预测 其 对 未 评分 项 目的 喜好 度 
r= 随 着 电子 商务 规模 的 不 断 扩 大 ， 商 品 个 数 和 种 类 快速 增 ”按照 降序 排名 形成 推荐 集 ， 提 高 了 推荐 结果 的 准确 性 ，1 
目 


长 ， 出 现 了 “信息 超载 ”问题 。 为 了 解决 这 些 问题 ,个 性 化 ” 当 用 户 评价 的 项 目 数量 较 少 或 者 新 用 户 没 有 评价 无 法 构建 : 
E 荐 系统 应 运 而 生 (。 协 同 过 滤 推 荐 算法 是 目前 应 用 最 广泛 网 络 图 ， 存 在 着 冷 启动 问题 。Yagci 等 人 09 提 出 利用 评 
的 个 性 化 推荐 算法 ， 其 出 色 的 速度 和 健壮 性 ， 在 全 球 互联 网 ”项 目 中 频繁 子 集 来 代替 传统 的 项 目 相似 度 和 矩阵 ， 减 少 了 计算 
领域 备 受 青睐 。 协 同 过 滤 的 原理 就 是 利用 某 种 兴趣 相投 、 拥 ”复杂 度 和 避免 了 传统 项 目 相似 度 和 矩阵 带 来 的 误差 ， 提 高 了 推 
有 共同 经 验 群 体 的 喜好 来 推荐 用 户 感 兴趣 的 信息 ， 个 人 通过 ”着 质量 ， 但 是 支持 度 阔 值 需要 动态 迭代 ， 算 法 在 通用 性 方面 
合 来 

法 


他 总 氏 尊 


通 
什 的 机 制 给 予 信息 一 定 程度 的 回应 〈 如 评分 ) 并 记录 下 3 存在 不 足 。Polato 等 人 0 提出 了 一 种 基于 核 方法 的 协同 过 滤 ， 


以 达到 过 滤 的 目的 ， 进 而 帮助 别人 筛选 信息 。 协 同 过 滤 算 济 该 算法 在 为 用 户 推荐 时 考虑 到 了 项 目 流 行 度 的 长 尾 分 布 及 用 
可 以 分 为 基于 用 户 (user-based collaborative filtering ) 和 基 户 个 人 偏好 ， 在 准确 率 、 召 回 率 上 得 到 了 提高 。 了 筷 欣 欣 等 人 
项 目 (item-based collaborative filtering〉 两 方面 5 时， 这 两 方 [9 提出 以 标签 权重 评分 的 形式 向 用 户 展示 推荐 结果 并 作出 
而 都 属于 最 近邻 协同 过 滤 推 荐 ， 通 过 评分 相似 的 多 个 最 近邻 合理 的 解释 ， 证 明了 推荐 结果 的 有 效 性 。 于 金明 等 人 03 提 出 
居 的 评分 向 用 户 产生 推荐 。 了 一 种 基于 评分 相似 性 和 结构 相似 性 两 部 分 构成 的 新 的 项 
但 是 随 着 用 户 ( 或 项 目 ) 规模 的 急剧 扩大 ， 数 据 变 得 越 相似 度量 方法 ， 该 方法 每 罚 活 跃 用 户 的 逆 项 目 频 率 ， 考 虑 到 


UU 


来 越 稀 玻 ， 协 同 过 滤 推 荐 算法 存在 着 一 些 缺 隐 ， 主 要 包括 矩 ”共同 评分 用 户 对 相似 度 的 影响 ， 有 效 地 提高 了 推荐 结果 的 准 
阵 稀 疏 造成 的 推荐 结果 不 精确 ; 项 目 冷 启动 问题 , 即 如 何 为 新 确 性 ,但 是 该 算法 未 考虑 到 项 目 属性 之 间 的 关系 。Zhou 等 人 
加 入 系统 的 用 户 推荐 。 针 对 以 上 问题 ， 许 多 研究 者 从 不 同 角 4 提出 了 一 种 基于 置信 加 权 偏 差 模 型 的 在 线 协 同 过 滤 算 法 ， 
度 对 协同 过 滤 推 荐 算法 进行 了 相应 的 改进 和 完善 。Ha 等 人 外 ” 将 用 户 个 人 兴趣 引入 到 相似 度 计算 公式 中 ， 提 高 了 相似 度 计 
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比例 因子 及 项 目 属性 的 协同 过 滤 算 法 
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的 联系 。 
未 考虑 项 目 属 
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但 是 未 考虑 到 用 户 及 项 目 属性 
为 解决 上 述 文献 计算 相似 


洱 人 


Em 


性 及 项 目 冷 
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合理 。 为 了 解决 这 个 问题 ， 引 入 了 两 个 物品 的 共同 评分 用 户 
数量 与 非 共 同 评分 用 户 数 量 比例 因子 的 概念 。 用 户 评分 比例 
妹子 的 定义 如 式 (3) 所 示 。 


启动 问题 ， 本 文 提出 了 一 种 基 汪 
例 因子 作为 项 目 相 似 性 权重 的 
项 目 相似 性 计算 未 能 考虑 项 目 
来 的 不 准确 问题 。 算 法 同时 考 目 冷 启动 问题 
系统 中 找 出 与 大 多 数 用 户 都 相似 的 用 户 ， 


a 


骨 订 可 尘 


洁 


于 


襄 法 沿革 


惊 性 权重 和 用 户 记 
过 滤 算 法 ， 克 服 了 传统 的 
在 联系 及 矩阵 稀 玻 怡 
然后 将 这 些 用 
冷 启 动 的 问 


分 比 


| 
上 市 


户 先 


题 。 


择 的 物品 推荐 给 新 用 户 的 方式 ， 来 解决 项 
1 ”传统 的 协同 过 滤 推 荐 算法 
1.1 用 户 -项 目 评分 数据 表 建 立 


假设 有 用 户 集 合 Wb 
T={, 记 ,2… 记 } ，Sui 表示 用 户 u 对 物品 i 的 评分 ,用 
评分 值 在 1~5，| 
建立 的 用 户 一 项 目 评 分 数据 表 5 如 表 1 所 示 。 
用 户 -项 目 评分 数据 表 


Table ] User-item score table 


U ={W ,U3 


表 1 


物品 和 
"对 物品 的 
] 户 未 评分 物品 在 评分 数据 中 对 应 为 “-”。 
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全 
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Ul S11 S12 S13 


Us S31 S32 


UU Sl Sn2 


nm 


1.2 ”相似 度 计算 方式 
相似 度 的 计算 是 协同 过 滤 


余弦 相似 度 。 在 后 面 的 实验 
来 计算 项 目 之 间 的 相似 度 。 

使 用 Pearson 相关 系数 计算 项 目 
(1) 所 示 。 


中 ， 本 文 将 利用 


> G8 si)(s -58)) 


Sim(i, j) = Wa) 
I (sw 一 5)2 | (sw —5))? 
ueU, iel,, 
其 中 :UV 表示 项 目 i 和 jj 的 共同 用 


户 伴 
于 五 ; 


用 户 w 对 项 目 i 和 j 的 评分 值 ，5 和 8Y 分 别 代 表 项 目 


这 二 六 和 
1.3 产生 推荐 集 

推荐 集 的 产生 方式 分 为 基于 用 户 和 基于 
式 。 基 于 用 户 是 通过 对 用 户 未 评分 项 
排名 的 方式 为 用 户 推荐 。 
设 根据 式 (1) 计 算得 出 物品 相似 度 抢 阵 为 MP ， 
的 评分 矩阵 为 M2 ,用户 对 m 个 物品 
式 (2) 所 示 。 


x . 1 
Bt =M! mxm Me 


物品 的 两 利 
并 降序 
0 下: 


进行 预测 评分 
其 于 物品 产生 推荐 集 的 方式 刀 


任 荐 算法 的 关键 步 又， 最 常用 
的 相似 度 计算 方 法 有 余弦 相似 度 、Pearson 相关 性 以 及 修正 的 
Pearson 相关 性 


i、J 


i 和 j 之 间 的 相似 度 如 式 


(1) 


Si 和 Sy 分 别 代 表 
的 


方 


用 户 也 


的 喜好 程度 矩阵 2% 如 


(2) 


首先 去 掉 式 (2) 计 算 结果 中 用 户 4 已 经 评价 过 的 物品 ， 然 
后 将 剩余 物品 按照 用 户 喜好 度 大 小 降序 ,选择 排名 在 前 top-N 
个 物品 形成 推荐 集 为 用 户 u 推荐 。 在 后 面 的 实验 中 ， 本 文 将 
利用 基于 物品 的 推荐 集 产生 方式 。 
2 ”改进 后 的 协同 过 滤 推 荐 算法 
2.1 改进 的 物品 相似 度 计算 方法 


传统 的 相似 度 计 量 方法 当 同 时 评价 两 个 物品 的 共 


数量 非常 少时 ， 根 据 式 (1) 得 到 的 物品 相似 度 极 大 ， 结 果 


同 用 户 


0 Nj;=0 

N;, 
一 一 一 一 一 NujJ<sN+N-2xNi (3) 
Ni +TNi-2xNi， 


1 N,j > N,+N, -2xN,, 
Factor 是 用 户 评分 比例 因子 , 它 的 值 域 是 [0,1]，N: 为 评 
标 物 品 i 的 用 户 数量 ，WNNj 为 评价 过 相似 物品 j 的 用 户 
数量 ，Nij 为 同时 评价 过 物品 i、j 的 用 户 数量 ;Ni+Nj-2 XNij 
为 从 评价 过 物品 六 j 的 用 户 当中 去 掉 同时 评价 过 物品 ij 的 


Factor ; = 


传统 的 基于 物品 的 协同 过 滤 算 法 未 能 考虑 到 项 目 属性 内 
关系 ， 为 此 本 文 引入 了 物品 属性 权重 的 概念 。 针 对 物品 
生 ， 根 据 各 个 物品 与 之 最 相似 的 物品 属性 之 间 的 关系 ， 
品 属性 进行 量化 ， 赋 予 物 品 属性 一 个 权重 。 物 品 属性 权 
化 的 步骤 如 下 : 
a) 将 表 1 的 用 户 - 项 目 评分 矩阵 数据 表 进 行 矩 阵 转 置 转 
为 项 目 一 用 户 评分 矩阵 数据 表 , 根据 相似 度 计算 式 (1) 计 算 各 
个 物品 的 最 相似 物品 ， 最 相似 物品 集合 记 为 
MI = {sim(i') sim(ii)max] ,其 中 i 计 ~ 声 属于 1.1 中 的 定义 
物品 集合 7。 
b) 设 物品 的 属性 表 如 表 2 所 示 。 
表 2 物品 属性 表 
Table 2 Item attribute table 


十 
fe 


Ey 


i 芒 酒 要 


| 内 
TIN 


max > 3 有 )max 


中 : p 一 Pp 为 物品 的 个 属性 , 1 表示 对 应 的 物品 有 对 应 的 
属性 ，0 为 对 应 的 物品 没有 该 属性 。 


根据 表 2 可 求 得 物品 属性 相似 度 ， 计 算 物 品 i 与 j 的 属 
性 相似 度 方式 如 式 (4) 所 示 。 
本 |Pw MPN ,| 

sin ) = |p DPN 出 
其 中 : PN，PN 分 别 为 物品 拥有 的 属性 的 量 ，Pw PN, 为 物 
品 i 与 7 共同 拥 有 的 属性 的 量 ，PN; PN; 为 物品 i 与 7 拥有 的 
所 有 属性 的 量 。 如 计算 物品 i 与 j 的 属性 相似 度 , 物品 i 有 属 

性 物品 j | 有 属性 Pi, Pa, Ps, 则 计算 方式 如 式 (5) 所 示 。 
Psimli,) =—— PP (5) 

Pitpst+pst+pa 

c) 将 1~k 全 排列 到 p, ~ p:;， 赋 予 每 个 属性 一 个 权重 ， 


再 根据 式 (4) 再 次 计算 每 个 物品 与 其 最 相似 物品 的 相似 度 。 其 
每 种 排列 下 各 个 物品 与 其 最 相似 的 物品 的 相似 度 记 为 
YO)mas 。 如 物品 1 与 其 最 相似 的 物品 sim(i)w 在 第 1 种 排列 
的 情况 下 ,计算 的 相似 度 记 为 YODiww 。 其 他 物品 标记 方式 类 
似 于 物品 1， 所 有 物品 在 第 y 种 排列 的 情况 下 的 相似 度 的 和 
记 为 CV(y) 。 CV(y) 的 计算 方式 如 式 (6) 所 示 。 


CV (Oy) =P VO) sm (6) 


d) 记 在 第 hdzsnzsx) 排列 情况 下 最 大 值 为 CVO0Dw 。 
CV(ODma 的 计算 如 式 (7) 所 示 。 
CV (Iwax =max{ CV (DD),CV (2),CV (3),.…, CV (kD)} (7) 
在 第 hh 种 全 排列 的 情况 下 ， 相 似 度 的 和 取得 最 大 值 ， 大 
多 数 物品 与 其 相似 的 物品 都 取得 最 大 值 ， 即 此 种 排列 情况 下 
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E 荐 更 加 符 


合 实际 情况 。 
e) 根据 d) 求 得 的 属性 权重 ， 可 得 物品 属性 相似 度 的 计 
算 如 式 (8) 所 示 。 
MPsim(i, j) = (8) 
其 中 ww 代表 物品 的 某 一 种 属性 权重 。 
最 后 根据 引入 的 用 户 评分 比例 因子 和 物品 属性 权重 ， 得 
出 最 后 的 物品 相似 度 改进 如 式 (9) 所 示 。 
Elsim(i, j) = Factor; ; x MPsim(i, j) x Peasim(i, 旋 (9) 


其 中 Peasim(i,】 为 利 上 


式 (1)Pearson 相关 系数 计算 得 到 的 物品 
的 物品 相似 度 计 算式 。 


co) 评分 比例 因子 计算 : 
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相似 度 ， Ersinrd, 六 为 最 终 得 到 的 改进 
改进 之 后 的 货 

然后 又 需要 在 维度 为 m 的 | 

杂 度 为 O(nxnxm)， 

复杂 度 为 O(n3)。 


法 首先 需要 计算 n 个 项 目 之 间 的 相似 
户 评 分 向 量 上 计算 , 所 以 时 


谨 
又 ， 


间 复 


由 于 m 和 n 数量 级 相同 ， 所 以 最 终 


2.2 项 目 冷 启动 解决 方法 


针对 项 目的 冷 
户 的 交集 概念 ， 


U={W ,WU } 


Ux = {Uix ,Uk ,Us 


的 集合 为 Vnion= {unionm,union,…,union} ,将 Union 集合 当 


用 户 选 择 的 物品 按 
果 推 荐 给 系统 新 加 
2.3 算法 实现 

本 文 改进 的 入 


启动 问题 ， 本 文 引入 了 每 个 用 
具体 的 定义 如 下 所 示 : 设 用 


户 的 相似 用 


户 集合 


时 间 


采用 式 (D) 计 算 用 户 守 的 前 大 个 最 相似 


n 


Ux} 9 记 在 Ux 中 | 


照 类 别 相 加 
入 的 用 户 。 


法 流程 如 图 1 所 示 。 


输入 评 
分 数据 
v 


数据 格式 化 成 项 目 - 用 
评分 矩阵 A 


二 


v 
根据 式 (1) 求 出 项 目 集合 m 
中 各 项 目 对 应 的 最 相似 项 


目 集合 m” 


vy 

根据 式 (4) 列 出 集合 m 和 
m” 对 应 的 m 个 项 目 属 性 多 
于 


将 1-k 全 排列 代入 k 个 属性 
中 ， 取 (6) 式 最 大 值 时 的 
属性 值 排列 


i 
型 


据 式 (9) 得 出 项 目 相似 
度 窍 阵 B 
v 
据 式 (2) 得 出 用 户 喜 好 
度 和 矩阵 C 
v 
将 C 按 值 大 小 降序 选择 top- 
NN 个 项 目 推荐 


法 流程 
Algorithm flow 


> 
而 


图 1 


Fig. 1 


算法 


结合 评 


分 比例 因子 及 项 目 属性 的 协同 过 滤 算 法 


项 目 集合 1， 推荐 项 
输出 : 
a) 利 
b) 利 


式 (8) 计 算 


输入 : 项 目 -用 户 评分 矩阵 4， 


top-N 集合 。 
式 (1)Pearson 相关 系数 计算 项 
为 品 属性 相似 度 。 


户 -项 目 评分 矩阵 B， 用 户 : 


个 数 。 


相似 度 。 


用 户 
集合 为 Ce =fuvwa wa ， 相 似 用 户 集合 所 组 成 的 集合 
j 户 出 现 次 数 在 [n/2,n] 
中 工 个 
按照 次 数 或 者 总 评分 降序 结 


、 
全 文 


疏 合 U， 


1. factor=0; /评分 比例 因子 

和 forS_i,S_jEAdo 

3./ 项 目 共同 评分 用 户 数量 为 0 

4. if CO-USER(S_i,S_j)=0 then 

2 factor=0; 

6. /共同 评分 用 户 数量 科 非 共同 评分 用 户 数量 
8. else if CO-USER(S i,S_j) <Num|S_iHNum|S j|-2* 
9. CO-USER(S_i,S_j) then 

10. factor= CO-USER(S_i,S_j)/Num|S_il+ 

11. Numl|S_j|-2*CO-USER(S_iS_j); 
12. else 

13， factor=1; 

14. end 让 

15. end for 


d)top-N 集合 选择 。 


1. top-N= 0; /推荐 集 初 始 为 空 


C[0.. Llength][0.. 
foriEIdo 


forjEIdo 


之 

3 

4 

3 /项 目 相似 度 =Pearson 系数 X 属 性 相似 度 X 评 分 比例 因 
6. Cli_index][j_index]=getPearson(i,j)*getProperty(i,j)* 
涡 

8 

9 


end for 


end for 


ILlength]; /物品 相似 度 矩 阵 


SH 
小 


getfactor(i,j); 


10. /计算 每 个 


日 户 对 项 


喜好 程度 


11. foruEU do 


12. result[0.. Llength]; /用 户 对 所 有 项 目的 喜好 程度 

13. u=B(:,u_score); /取出 B 中 用 户 u 的 评分 

14. // 喜 好 度 = 项 目 相 似 度 和 矩阵， 用户 评分 矩阵 

15. result=Cu; 

16. // 将 用 户 喜好 度 降序 选择 排名 前 个 项 

top-N=sorted(result.value, reverse=True, num=k); 

end for 
3 ”算法 仿真 实验 
3.1 实验 环境 

1) 实验 数据 集 及 平台 

实验 采用 经 典 的 协同 过 滤 推 荐 算法 使 用 的 MovieLens05 
和 Jester 两 个 数据 集 。MovieLens 数据 集中 包含 了 943 个 用 
户 的 个 人 信息 ， 如 年 龄 、 性 别 、 职 业 等 ，1628 部 电影 的 基本 
信息 ; 100000 个 用 户 对 电影 的 评分 ,评分 范围 为 1~5, 数据 
集 的 评分 稀疏 性 为 1-100000/(943x1682)=93.7% 。Jester 数据 
集 包 含 了 24983 个 用 户 对 100 个 笑话 的 评分 ， 评 分 总 数量 为 


1761439 个 ， 评 分 范围 


为 [-10,10] ， 数 据 自 


的 稀 玻 性 为 


A 


1-1761439/(24983x100)=29.5%。 实验 是 在 Windows10 操作 系 


统 下 ， 基 于 Python3.6.4 
2) 实验 评价 标准 


推荐 系统 的 好 坏 评 价 标准 主要 有 统计 精度 度 
A 类， 统计 精度 度量 方法 中 常 
差 MAE(mean absolute error); 决策 支持 精度 度量 方法 中 
率 (recall) 、 准 


持 精 度 度量 方法 
对 偏 
主要 有 召 匠 


Fl1-measurell6-181。 本 文 的 评价 标 ; 
估 实 验 结果 。 
本 文 假设 | 


的 环境 下 完成 的 。 


量 和 决策 文 
] 的 是 平均 绝 
度 


HH 


确 率 (precision) 以 及 
采用 准确 率 和 召回 率 来 评 


j 户 w 在 测试 集 喜 欢 的 项 目 集合 为 T;， 系 统 推 
荐 的 物品 集合 为 N:， 则 针对 用 户 


| 


的 推荐 召 


率 和 准确 率 的 
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计算 方式 分 别 如 式 (10)(11) 所 示 。 


了 AN 

0 (10) 
天 人 

R60O = 地 (11) 


整个 系统 的 准确 率 和 召回 率 是 计算 用 户 集合 中 的 每 个 用 
户 的 准确 率 和 召回 率 ， 然 后 取 平 均值 。 
3.2 实验 结果 及 分 析 
为 了 验证 本 文 算法 的 有 效 性 ， 对 MovieLens 和 Jester 数 
据 集 的 训练 集 和 测试 集 的 数据 进行 训练 测试 ， 在 推荐 物品 个 
数 top-N 上 取 值 为 {10，15，20，25，30，40，50}。 实 验 分 
为 两 部 分 ， 分 别 对 只 引入 用 户 评 分 比例 因子 的 结果 分 析 和 引 
入 评分 比例 因子 及 项 目 属性 结合 的 结果 分 析 。 实验 与 文献 [13] 
提出 的 算法 、Pearson 相关 系数 、 基 于 Sigmoid 函数 相关 性 改 
进 的 算法 09 及 基于 Jaccard 系数 改进 的 算法 Po 对 比 。 

实验 1 用 户 评分 比例 因子 有 效 性 分 析 
首先 利用 召回 率 和 准确 率 来 验证 式 (3) 引 进 用 户 评分 比 
例 因子 改进 项 目 相似 度 的 方法 , 采用 上 述 的 top-N 集合 验证 。 
MovieLens 数据 集 下 得 到 的 实验 结果 如 图 2、3 所 示 。 


一 曰 Pearson 
16 下 一 + 一 文献 [19] 
一 合 一 文献 [20] 
一 © 一 文献 [13] | 
一 太一 引入 评分 比例 因子 


10 15 20 25 30 35 40 45 50 
top-N 值 /个 


图 2 MovieLens 数据 集 下 准确 率 比较 


Fig.2 Comparison of precision under movielens dataset 


, | 1 1 
15 20 25 30 
top-N 值 /个 


图 3 MovieLens 数据 集 下 召回 率 比 较 
Fig.3 Comparison of recall under movielens dataset 

在 Jester 数据 集 下 得 到 的 实验 结果 如 图 4、5 所 示 。 
从 图 2 和 4 可 以 看 出 , 在 Jester 和 MovieLens 数据 集 下 ， 
当 top-N 取 值 在 [10,50] 时 ， 引 入 用 户 评分 比例 因子 改进 之 后 
的 准确 率 高 于 Pearson 系数 、 文 献 [13,19,20]。 改 进 后 的 曲线 
呈现 下 降 趋 势 是 由 于 在 top-N 取 值 较 小 的 情况 下 ， 如 测试 当 
中 的 10, 就 能 达到 较 高 的 准确 率 ， 导致 式 (10) 的 分 母 在 变 大 ， 
分 子 几 乎 不 变 ， 所 以 准确 率 越 来 越 低 。 改 进 之 后 在 top-N 取 
值 为 10 的 时 候 , 准确 率 比 当前 改进 较 好 的 算法 文献 [13] 提 高 
J 2.8%。 
在 引入 用 户 评分 比例 因子 后 ， 考 虑 到 了 项 目的 共同 评分 
用 户 对 计算 项 目 相似 度 的 影响 ， 当 项 目 共同 评分 用 户 与 非 共 


同 评分 用 户 数量 比 越 大 时 , 说 明 两 个 项 
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目 之 间 的 相似 度 越 大 ， 


从 而 避免 了 只 依靠 用 户 评分 大 小 来 计算 相似 度 带 来 的 不 精确 


问 题 3 


从 图 3 和 5 中 可 以 看 出 ， 当 top-N 取 值 在 [10,50] 的 情 
下 ， 召 回 率 不 断 地 增加 ， 而 且 引 入 


提高 了 项 目 相 似 度 计算 的 准确 性 。 


况 


~ 


] 户 评分 比例 因子 改进 2 


后 的 得 到 的 召回 率 大 于 Pearson 系数 、 文 献 [13,19,20] 算 法 改 
进 得 到 的 召回 率 。 根 据 图 2~5 分 析 ， 可 得 到 引入 用 户 评分 比 


例 因 子 是 有 效 的 。 


实验 2 项 目 属性 及 评分 比例 因子 结合 分 析 


然后 在 Jester 和 MovieLens 数据 集 下 ， 利 用 召回 率 和 准 
确 率 来 验证 式 (9) 结 合 项 目 属性 及 评分 比例 因子 改进 之 后 
项 目 相似 度 计算 方法 是 否 正 确 , 采用 上 述 的 top-N 集合 验证 。 
在 MovieLens 数据 集 得 到 的 准确 率 和 召回 率 实 验 结 果 如 图 


7 所 示 。 
一 -Pearson 一 | 一文 献 [19] 文献 [20] 文献 [13] 一 太一 引入 评分 比例 因子 
18 T T T T T T T 
| 
入 一 人 一 一 一 一 
丑 
证 10 上 | 
译 
殷 
sl ] 
RE 
全 
让 ] 
10 "6 20 25 30 35 40 45 50 
top-N 值 /个 
图 4 Jester 数据 集 下 准确 率 比 较 
Fig.4 Comparison of precision under Jester dataset 
80 ， 
一 旦 一 Pearson 
zo 一 人 一 文献 [19] 
一 人 一文 献 [20] 
一 © 一 文献 [13] 
60 | | 一 祈 一 引入 评分 比例 因子 
50 
国 
葵 40 
取 
30 水 
2 
20 
上 
10 
全 
vy ， ， ， ， ， ， ， 
10 15 20 25 30 35 40 45 50 
top-N 值 /个 
图 5 Jester 数据 集 下 召回 率 比 较 
Fig.5 Comparison of recall under Jester dataset 
20 
一 号 Pearson 
18F 一 + 一 文献 [19] 
一 人 一 文献 [20] 
16* 一 © 一 文献 [13] J 
一 太一 引入 评分 比例 因子 


准确 率 /% 


10 415 20 25 30 35 40 45 50 


top-N 值 /个 


图 6 MovieLens 数据 集 下 准确 率 比 较 


Fig.6 Comparison of precision under movielens dataset 


的 


6、 
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回 率 /% 


一 日 Pearson 
一 + 一 文献 [19] 
一 全 一 文献 [20] 
一 Se 一 文献 [13] 
一 辣 引入 评分 比例 因子 | | 
一 一 本文 算法 


10 全 5 需 5 2 35 3 玄 50 
top-N 值 /个 

图 7 MovieLens 数据 集 下 召回 率 比较 

Fig.7 Comparison of recall under movielens dataset 


Jester 数据 集 下 得 到 的 实验 结果 如 图 8、9 所 示 。 


地 小 艺 ， 等 : 结合 评分 


一 上 Pearson 一 二 一 文献 [19] 一 合 一 文献 [20] 一 © 一 文献 [13] 一 太一 引入 评分 比例 因子 一 一 本 文 算法 
25 T T T T T T T 


10 15 20 25 30 35 40 45 50 
top-N 值 /个 


8 Jester 数据 集 下 准确 率 比 较 


Fig.8 Comparison of precision under Jester dataset 


吧 


-日 一 Pearson 一 个 一 ll 
80 


文献 [20] 文献 [13] 引入 评分 比例 因子 一 一 本 文 算法 


70 


10 15 20 25 30 35 40 45 50 
top-N 值 /个 
图 9 Jester 数据 集 下 召回 率 比较 


Fig.9 Comparison of recall under Jester dataset 


集 下 ， 
值 较 小 的 情况 下 就 能 


E 荐 出 用 户 喜 欢 的 物品 ， 相 比 与 只 


用 户 评 分 比例 因子 的 改进 ， 在 MovieLens 数据 集 下 ， 推 荐 的 
准确 性 提高 了 1.9%， 在 Jester 数据 集 下 ， 提 高 了 约 4.7%。 图 
呈现 下 


6 和 8 中 ， 本 文 方法 在 top-N 取 值 [10，50] 的 情况 下 ， 
年 趋势 的 原因 同 实验 1 引入 用 户 评 分 比例 因子 准确 率 下 
原因 一 样 。 
式 (9) 在 式 (3) 的 基础 上 , 又 引入 了 项 
为 项 目 相 似 度 权 重 ， 提 高 了 项 


属性 之 间 相 似 


通过 图 6 和 8 中 可 以 看 出 ， 在 Jester 和 MovieLens 数据 
结合 评分 比例 因子 及 项 目 属性 的 改进 方式 在 top-N 取 


相似 度 计算 的 准确 性 ， 降 低 


引入 


了 仅 使 用 稀 朴 评分 矩阵 计算 相似 度 造 成 的 误差 


结果 的 准确 性 。 


， 提 高 了 扒 


从 图 7 和 9 中 可 以 看 出 ， 当 top-N 取 值 在 [10，50] 的 情 
况 下 , 同样 , 式 (9) 与 (7)、 Se 19, 20] 及 传统 的 item-CF 
相 比 ， 在 召回 率 方 面 都 更 高 一 点 。 由 于 推荐 出 的 物品 是 用 户 


喜欢 的 物品 越 来 越 多 ， av 所 


以 召 


比例 因子 及 项 目 属性 的 协 
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可 浴 曲 


线 呈 上 升 趋 势 。 说 明 在 推荐 数量 相同 的 情况 下 ， 结 合 


评分 比例 因子 及 项 目 属性 改进 2 


及 项 
系 以 及 同一 个 项 
之 间 的 关系 ,减少 
情 度 得 到 了 提高 ， 并 且 在 较 少 的 推荐 集 下 就 能 取得 4 
确 率 ， 


4 


现 针 


E 阵 与 用 户 评分 矩阵 的 乘积 作为 用 户 对 物品 的 最 


度 、 
系 ， 


ji 云 。 


后 的 推荐 效果 更 佳 。 
综合 实验 1 和 2 可 得 出 ， 本 文 提出 的 结合 评分 比例 
性 的 协同 过 滤 算 法 考虑 到 了 项 目 属性 之 间 的 站 
共同 评分 用 户 数量 与 非 共 同 评分 
仅 使 用 评分 矩阵 带 来 的 误差 ， 


了 
要 总 玉 而 匹 
竹 说 思 


冰 二 


Wr 
0 


从 ?HH : 
了 囊 碎 区 


符合 实际 的 推荐 系统 需求 。 


结束 语 


为 解决 传统 的 基于 项 目的 协同 过 滤 算 法 仅 使 用 物品 的 同 
终 喜 好 程 
未 考虑 热门 物品 带 来 的 影响 以 及 物品 内 在 属性 之 间 的 联 
本 文 提出 了 结合 评分 比例 因子 及 项 目 属性 的 协同 过 滤 算 


利用 用 户 评 分 比例 因子 、 物 品 属性 权重 以 及 Pearson 相 


t 


关系 数 代替 物品 同 现 矩阵 来 计算 物品 相似 度 。 实 验 结果 表明 ， 


本 文 提出 的 算法 在 召回 率 以 及 准确 率 


有 的 协同 过 滤 推 


荐 算法 得 到 
合 评分 比例 因子 及 项 
准确 性 上 作 进 


结 


了 提高 ， 证 明了 本 文 算法 的 正确 性 。 未 来 考虑 对 
属性 的 协同 过 滤 算 法 在 推荐 速度 和 
步 的 优化 。 
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